强化学习的最新工作集中在学习的几个特征上,这些政策超出了最大化的奖励。这些特性包括公平,解释性,概括和鲁棒性。在本文中,我们定义了介入的鲁棒性(IR),这是一种通过培训程序的偶然方面(例如训练数据的顺序或代理商采取的特定探索性动作)引入了多变异性的量度。尽管培训程序的这些附带方面有所不同,但在干预下采取非常相似的行动时,培训程序具有很高的IR。我们开发了一种直观的,定量的IR度量,并在数十个干预措施和状态的三个atari环境中对八种算法进行计算。从这些实验中,我们发现IR随训练和算法类型的量而变化,并且高性能并不意味着高IR,正如人们所期望的那样。
translated by 谷歌翻译